腾讯云 MapReduce 集群 core 节点下线过程
[toc]
背景
背景说明
当前 EMR 的 core 节点需进行升级,对老的 core 节点进行下线操作来替换新的 core 节点 上线。
目标
最终目标
集群在下线 Core 节点后,数据仍保证完整可靠性,同时集群服务仍正常运行
下线步骤
下线具体步骤
1.hadoop fsck / 运行健康检查,确认hdfs健康状态为healthy,如果有单副本情况存在,务必调整为多副本。
2.如果数据量较大,务必先调优,否则下线数据迁移异常缓慢。 参考文档: 加快副本复制速度文档
3.开始下线节点 参考文档: 大数据EMR-core节点下线操作
4.申请白名单,控制台缩容节点
第一步、加快副本复制速度
注意
一定要做加快副本复制速度操作,否则复制会特别慢(第一次操作由于没有做此步骤,导致后续复制速度特别慢,经和腾讯云沟通30T数据(2台机器)在不加速的情况下需要大概2周以上!)
1.1 在 emr 控制台的 hdfs-site.xml 里增加如下 5 个参数,下发 NameNode 节点
dfs.namenode.replication.max-streams 20
dfs.namenode.replication.max-streams-hard-limit 40
dfs.namenode.replication.work.multiplier.per.iteration 10
dfs.datanode.balance.max.concurrent.moves 30
dfs.datanode.balance.bandwidthPerSec 52428800
参数说明
| 参数 | 说明 | 默认值 | 参考值 |
|---|---|---|---|
| dfs.namenode.replication.work.multip lier.per.iteration | 决 定 了 可 以 从 很 多 under replication blocks 中选出多少个 block 准备进行复制。如果该参数配 置 得 太 小 , 则 dfs.namenode.replication.max-str eams 配置得再大没有用;可以选出的 block 数与集群 live 的 datadnode 成正比。 | 2 | 10 |
| dfs.namenode.replication.max-streams | 单个 DataNode 最大同时恢复的块数 量,可以间接控制 DataNode 恢复数据 块 的 带 来 的 网 络 等 压 力。 需 要 与 dfs.namenode.replication.work.mu ltiplier.per.iteration 配置项配合 使用; | 2 | 20 |
| dfs.namenode.replication.max-streams -hard-limit | balance/退服性能参数,最高优先级 复制流的数量的硬限制 | 4 | 40 |
| dfs.datanode.balance.max.concurrent. moves | DataNode 上同时用于 Balancer 待移 动 block 的最大线程个数 | 5 | 30 |
| dfs.datanode.balance.bandwidthPerSec | 指定 DataNode 用于 Balancer 的带宽 | 10485760 (10mb) | 52428800 (50mb) |
在 基本信息 -> 实例信息 中点击 组件信息

在 HDFS 处点击下拉框,选择 配置管理

选择 hdfs-site.xml ,然后点击 修改配置

选择 新增配置项,然后把上述5个值依次添加并保存
